spark 表关联

原创

大海之中 2019-09-20 19:37:15 ©著作权

©著作权归作者所有：来自51CTO博客作者大海之中的原创作品，请联系作者获取转载授权，否则将追究法律责任

发现用spark写表join比flink 简单很多，至少schema 可以省了，下面是一个例子

public static void main(String[] args) {		
		
		 SparkSession s= SparkSession.builder().appName("rec").getOrCreate();
		
		 Dataset<Row> user=s.read().format("jdbc")
	      .option("driver", "com.mysql.jdbc.Driver")
	      .option("url", "jdbc:mysql://*")
	      .option("dbtable", "user")
	      .option("user", "1")
	      .option("password", "1")
	      .load();
		
		 Dataset<Row> house=s.read().format("jdbc")
			      .option("driver", "com.mysql.jdbc.Driver")
			      .option("url", "jdbc:mysql://")
			      .option("dbtable", "house")
			      .option("user", "1")
			      .option("password", "1")
			      .load();
		
		 
		 user.cache();
		 
		 house.cache();
		 
		 
		 user.createOrReplaceTempView("user");
		 
		 house.createOrReplaceTempView("house");
		 	 
		
		 Dataset<Row> temp= s.sql("select user.user_name, house.house_name from user inner join house where user.uid=house.uid ");
		 
		 temp.write().csv("/home/ziroom/house-user");
		
		
	}